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摘 ”要 


最 近 流 行 的 自然 语言 处 理 技术 之 一 是 BERT 模型 ， 本 文 给 出 该 模型 的 数学 形式 。 
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Abstract 


BERT is the most popular natural language processing(NLP) model In the recent 3 years. This paper 


presents its mathematic formulas in detail. 
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1 引言 


在 自然 语言 处 理 领域 ，BERTI[]] 模型 是 最 近 两 三 年 的 流行 技术 。 它 为 后 续 一 大 批 模型 带 来 
灵感 ， 例 如 ALBERT[2]、XLNET[3]、RoBERTaf[4] 。 

BERT 原 论 文 没有 详细 描述 模型 细节 。BERT 模型 的 主体 来 自 于 自 注意 力 编码 器 [5]， 然 而 
论文 [5] 也 是 用 自然 语言 大 致 描述 ， 没 有 给 出 具体 细节 。BERT 作者 提供 的 TensorFlow 代码 ! 中 
的 实现 方式 ， 与 原 论文 [1] 中 的 描述 也 有 差异 。 

为 了 迅速 应 用 于 业务 、 严 谨 地 理论 研究 ， 本 文 给 出 BERT 模型 的 数学 形式 ， 将 程序 代码 改 
写 为 数字 公式 。 程 序 代码 与 原 论文 不 一 致 的 地 方 ， 以 程序 代码 为 准 。 
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图 1: 激活 函数 gelu 


2 有 博 数 定义 


作为 准备 ， 本 节 定 义 儿 个 函数 。 目 前 BERT 代码 中 数组 的 组 织 方式 是 行 优先 ， 因 此 本 文中 


的 向 量 、 和 矩阵 也 按 行 优先 来 定义 。 


任意 给 定 正 整数 mm 和 n， 行 向 量 用 黑体 小 写字 和 母 表示 ， 形 式 为 x2 = (zl XY2,…. 


用 大 写字 母 表示 ， 形 式 为 


2Z11 X12 Tin 
T21 X22 Ton 
并 ,二 . 
Tml Xm2 i CXmn 
软 大 函数 (softmax) 定义 为 
1 
SImax(zZ) = Tn (全 
smax(z1:) 
SImax(Z2:) 
smax(X) = = (Smax(Z1:); smax(722:);... ;Smax(zm:)), 
smax(Zzm:) 


这 里 的 Vi: 一 (Zil, Vi2,... es 圆 括号 里 的 分 号 表示 换行 。 
对 辕 量 或 矩阵 求 对 数 时 ， 对 数 作用 到 它们 的 每 一 个 元 素 上 ， 即 


log(Z) = (log(zli),log(zz), ,log(zn))， 
log(7X11) log(zliz) ::: log(z1n) 
log(X) = ogo2y) oe, 本 Be 
log(Zm1) log(zm2) ::: log(zZmn) 


gelu(z) = 0.5z(1 十 tanh[V0.5r(z 十 0.0447152z5)])， 


gelu 的 图 像 见 图 1. 
函数 gelu 作用 到 的 向 量 和 和 矩阵 上 时 ， 它 作用 到 每 一 个 元 素 上 。 


Wn) 矩阵 


层 归 一 化 dayer normalization) 函数 


| NT11-p1) Bi 2 (T1212) 十 Bo …- Yn (Tiln— pmn) + Bn | 
Ol Cl On 
Yi1(zT21—11) B 7Y2(T22—12) Yn (T2n— pn) 
FD i 
Inor(X)= =- 及 l es 3 
TI1(Zmdl 一 ) | 7Y2 (Tm2— ) Yn (Tmmn nn 
ee wd 4p, 


这 里 的 Hi 一 二 Di Tij, 0 /去 Di (Tay /多 了 = 1,2, .No B = (B1, Bo, 0 , Bn) 和 
9 二 (7172， Se ,Yn) 是 待定 向 量 。 
对 任意 实数 > 和 任意 实数 a e [0,1)， 随 机 取舍 (dropoub 函数 定义 为 
0， 以 概率 a 取 此 值 ， 
Ti， 以 概率 1 一 a 取 此 值 . 
drp 简称 随 取 函数 。 对 任意 矩阵 X 和 任意 实数 a € [0,1)， 随 取 函 数 作用 到 每 个 元 素 上 


drp(x, a) = 


drp(x11, Q) drp(x12, 0) ee drp(zX1n, Q) 
drp(x21,0) drp(X22,Q) :++ drp(zonya 
Pp de pl 2 ) p( ) p( . ) | | 
| drp(xzmi1;,Q) drp(zm2,Q) 1: drp(zmnya) | 

假设 行 向 量 爹 = ($1,22,.…. ,人 2)， 将 行 问 量 与 人 第 阵 相 加 定义 为 逐 行 相 加 ， 即 

2Z11 十 21 2Z12 十 22 1 TInt tn 

221 十 21 222 十 22 ”22n 十 Zn 

对 十 多 一 
Zrm1l 十 2Z1 2Zm2 十 22 … Tmn tt Fn 


3 BERT 模型 全 貌 


定义 几 个 常数 ， 并 给 出 典型 值 。 典 型 值 是 google ee 其 它 参 数 配 
置 见 BERT 源码 网 站 。ni 为 词 碎 数量 ， 典 型 值 30522; m2 为 词 碎 租 入 宽度 ， 典 型 值 512; ms 为 
词 碎 序 列 长 度 ， 网 128; na 为 被 让 挡 语 肆 数量， 典型 值 20; ns 为 自 注意 力 头 数 ， 典 型 值 8; 
ne 为 单 头 宽度 ， 等 于 笃 ， 典 型 值 64; nr 为 全 连接 层 宽 数 ， 典 型 值 2048; ns 为 编码 器 层 数 ， 典 
型 值 8. 

BERT 模型 的 全 貌 见 图 2。BERT 模型 的 输入 是 词 碎 序 列 ， 形 式 为 


[CLS], 词 碎 2 词 碎 3..… 词 碎 63u[SEP] 词 碎 65, 词 碎 66.… 词 碎 127.[SEP] 


"是 显 式 空格 ， 用 来 分 隔 词 碎 。 第 1 个 [SEP] ( 含 ) 之 前 的 词 碎 序列 称 为 上 句 ， 第 工 个 [SEP] (不 
含 ) 之 后 的 词 碎 序 列 称 为 下 句 。 中 间 [SEP] 的 位 置 只 是 示意 ， 不 要 求 一 定 是 第 64 个 词 碎 。 词 碎 
序列 中 ， 一 些 随机 位 置 上 是 [MASK]， 它 表示 原来 句 中 的 词 碎 被 “遮挡 ”了 。 例 如 : 


[CLS], [MASK]， [MASK] 济南 的 Du 雪 [MASK] 下 .在 了. 这， 里 ，D 跑 - 马 
J 岭 册 位 于 凯 济 山南 山南 部 山区 [MASK], 海拔 近 ，,[MASK], 米 ，。uw[SEP]， 
[MASK], 素 , 衷 . 的 [MASK]，, [MASK]， 云雾 ,飘渺 ,山中 中心 民 u[MASK]， 木 
uu 屋 忆 格外 凯 精 致 u, 岂 不 用 [MASK],4 了 [MASK], 计 由 去 uu 砍 , 树 赚 凯 钱 凯 ， 
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务 : 上 下 名 任务 :预测 被 遮挡 词 任务 :预测 被 遮挡 词 
人 人 
1 


全 
国 于 -El 
全 全 


带 过 挡 的 上 和 带 这 档 的 下 


2: BERT 模型 全 貌 。 词 碎 序 列 长 度 为 128， 编 码 器 层 数 为 8， 这 2 个 数字 均 可 以 按 需 调整 。 


下 


| 
全 
全 国 


加 "| 
全 
十 性 
I 


uu 更 不 用 册 与 ,能 大 能 二 斗 _[IMASK]_ 和 斗 ， 勇 党 ， 心 劳 U[MASK],, 在 
u 这 岂可 uu[MASK]j_L 像 光山 头 强 届 一 册 样 慨 册 意 册 的 蜗居 一 天 LU,， 享 山 受 
Ju[IMASK]_ 段 美 好 的 Lu 冰 [MASK], 奇 , 缘 ,[MASK] # 济南 爆 [IMASK]L# 
# 有 妨 册 不 由 住 ，, 想 ,， 拍 的 [SEP] 


这 个 例子 中 ， 上 句 是 


[CLS], [MASK], [MASK]， 济南 中 的 雪 册 [MASK] 下 在 0 了 .这 由 里 ， 跑马 
/ 岭 山 位 于 济南 山南 册 部 山区 [MASK], 海拔 近 ， [MASK] 米 ，。 u [SEP] 


下 句 是 


U [MASK]， 素 衷 册 的 [MASK], [MASK] 云雾 ,飘渺 ,山中 由 民 u[MASK]， 
木屋 格外 忆 精 LU 致 ,不 用 [MASK]J 了 .uIMASK] 计 ， 去 D 砍 5 树 D 赚 ， 钱 
, 口 更 不 D 用 与 能 -大 D 态 -二 Du 斗 uU[MASK] 和 斗 , 勇 费心 劳 U[IMASK],，,， 
在 这 岂可 [MASK]_L 像 光头 强 一 册 样 异 意 的 蜗居 一 LU 天 ,UL 享 u 
受 uU[IMASK], 段 美好, 的, 冰 U[IMASK]_ 奇 u 缘 [MASK],# 济南 爆 [MASK], 
提 机 四 凯 不 由 住 想 , 拍 忆 的 [SEP] 


上 名 和 下 名 来 自 紧 下 方 这 条 微 博 中 的 3 句 话 ， 并 将 长 度 裁剪 为 128. 


原来 济南 的 雪 都 下 在 了 这 里 ， 跑 马 岭 位 于 济南 南部 山区 ， 海拔 近 千 米 。 

有 幸 亲 临 今冬 初雪 ， 银 装 素 衷 的 山林 云雾 飘渺 ， 山 中 民宿 木屋 格外 精致 ， 不 用 为 了 生计 
去 殉 树 赚钱 ， 更 不 用 与 驴 大 能 二 斗智 斗 勇 费心 劳 神 ， 在 这 可 以 像 光头 强 一 样 尾 意 的 娲 居 一 
天 ， 享 受 这 段 美 好 的 冰雪 奇 缘 。 

# 济南 爆 料 硕 仆 不 住 想 拍 的 冬日 美景 #@ 济南 文 旅 发 展 集团 


词 碎 进 入 BERT 之 后 ,立即 被 转化 为 向 量 。 相 应 地 ， 词 碎 序 列 转化 为 矩阵 S$，5S 的 每 一 个 行 
向 量 对 应 一 个 词 碎 。 接 下 来 ,矩阵 3 被 喂 给 第 1 个 编码 器 , 第 1 个 编码 器 输出 矩阵 2 ， 矩阵 2 
随后 被 喂 给 第 2 个 编码 器 。 这 样 依 次 操作 ， 第 ns 个 编码 絮 的 输出 为 2 ， 这 也 是 BERT 模型 的 
输出 。 图 2 中 的 向 量 少 是 2” 的 第 1 行 。 

为 了 得 到 BERT 模型 内 部 参数 的 最 优 值 ， 需 要 2 个 任务 来 设 定 优化 目标 函数 。 上 下 句 任务 : 
判断 词 碎 序 列 中 的 上 句 和 下 名 是否 为 真实 的 承接 关系 。 这 要 求 制作 一 批 正 样本 和 一 批 负 样本 , 正 
样本 从 相 邻 的 句子 中 产生 ， 负 样 从 不 同 的 文档 中 产生 。 庶 挡 任 务 : 原 论文 称 为 “遮挡 的 语言 模 
型 ”， 猜 测 被 诸 挡 的 词 。 


4 制作 训练 样本 


训练 语 料 通 浓 来 自 多 篇 文章 ， 每 一 篇 文章 都 分 割 为 多 个 句子 。 例 如 每 条 微 博文 本 都 可 以 视 
为 一 篇 文章 ， 话 题 、 句 号 、 问 号 均 可 以 作为 句子 结束 的 标志 。 

从 训练 语 料 中 生成 一 个 词 碎 词 典 C = {ci1,cz,.….,cm}， 具 体 的 生成 方法 有 字 对 编码 [6][7] 
(Byte Pair Encoding) 、WordPiece 和 Unigram Language Model。 词 典 中 还 要 包含 几 个 特殊 的 词 碎 : 
[CLS]、[SEP]、[MASK]、[PAD]、[UNK]。 对 中 文 来 说 ， 词 雁 是 单个 字 、 单 个 标点 符号 。 对 英文 
来 说 ， 词 碎 是 组 成 单词 的 片段 ， 例 如 un、 检 aff、# 撩 able，2 个 井 号 表示 该 词 碎 应 该 接 在 别 的 词 碎 
后 面 。 任 何 一 个 单词 都 可 以 分 割 成 看 干 词 碎 ， 例 如 unaffable 能 分 割 成 un_#t#aff_##able。 

将 训练 语 料 的 中 文句 子 和 英文 句子 全 部 转化 为 词 碎 句 子 ， 此 后 提 及 的 训练 语 料 均 指 词 碎 形 
式 的 训练 练 语 料 。 

词典 的 中 每 个 词 雁 ci 都 能 入 到 一 个 行 向 量 di，di 的 尺寸 为 1 x n2。>， 尺 寸 典 型 值 为 1 x 512。 
将 所 有 的 行 向 量 di 按 顺 序 排列 起 来 ， 组 成 矩阵 D = (qdi; d2;.…; dni)， 尺 寸 为 ni x m2， 尺 寸 典 
型 值 30522 x 512。 

训练 样本 分 正 样本 和 负 样 本 ， 正 样本 词 碎 序 列 的 上 句 和 下 名 是 真实 的 承接 关系 ， 负 样本 词 
雁 序 列 的 上 句 和 下 句 之 间 没 有 承接 关系 。 

从 训练 语 料 的 同一 篇 文章 中 挑 出 2 个 相 邻 的 句子 适当 裁剪 ， 使 2 个 句子 的 长 度 等 于 ma 一 3， 
典型 值 为 125。 按 照 形式 “[CLS], 第 1 个 句子 [SEP], 第 2 个 句子 [SEP]” 组 成 序列 7T， 记 为 
T = T1T2... Tns, 

这 里 的 EC,i 三 1,2,...,n3. 从 TT 随机 挑 出 na 个 词 雄 , 要 求 不 能 是 [CLS]、 [SEP]、 [PAD]。 这 na 
个 词 碎 在 7 中 的 位 置 编号 记 为 = ( 石 ,bo,.… ,tns)， 在 词典 C 中 的 编号 记 为 = (1, 纪 ).… ,tns)， 
显然 友 E {1,2,...,n3}, ef{l,2,...,n1}。 

对 这 na 个 位 置 (石生 ,.…. ,th )， 随 机 挑 出 0.8 x ma 个 并 将 了 中 的 对 应 词 碎 蔡 换 为 [MASK]， 
随机 挑 出 0.1 x na 个 并 将 了 中 的 对 应 词 碎 并 替换 为 C 中 的 其 它 词 碎 ; 剩余 0.1 x na 个 位 置 ，T 
中 的 对 应 词 碎 保 持 不 变 。 将 蔡 换 后 的 词 碎 序列 记 为 个 ， 即 得 到 一 个 正 样本 。 

如 果 从 训练 语 料 的 不 同文 章 中 挑 出 2 个 句子 ， 并 用 同样 的 方法 制作 成 词 碎 序 列 地， 就 得 到 
一 个 负 样 本 。 

第 3 节 的 语 碎 序列 中 ， 随 机 挑 出 来 的 遮挡 的 位 置 为 

£ = (2, 3, 8, 26, 30, 34, 38, 39, 48, 57, 60, 77, 83, 88, 105, 111, 114, 116, 119), 


5 


对 应 的 词 碎 为 


原 册 来 都 ，， uu 千 凯 装 届 山林 凯 宿 山 为 册 生 山 智 神山 以 这 山 雪 册 。 u 济 凯 料 


这 些 词 碎 在 词典 C 中 的 编号 t= (1334, 3342, 6964, 8025, 1284, 6164, 2256, 3361, 2163, 712, 4496, 
3256, 4869, 810, 6822, 7435, 512, 3846, 3161) 。 注 意 ， 词 碎 “ 济 ”保持 不 变 。 
s 编码 需 


输入 BERT 模型 的 样本 是 词 碎 序 列 ， 不 能 直接 进行 矩阵 、 向 量 运 算 ， 需 要 先 转换 成 矩阵 形 
式 。 这 个 转换 工作 在 第 1 个 编码 需 前 完成 。 


5.1 输入 向 量 


给 定 训练 样本 地 三 伍 久 ... 徊 s。 对 i 二 1,2,...,n3， 取 出 针 在 矩阵 DD 中 的 对 应 行 癌 量 , 记 
为 s;。 将 si 按说 从 小 到 大 顺序 排列 起 来 ， 得 到 矩阵 5S = (s1; s2;.….; sns)，5 的 尺寸 为 na x n2， 
尺寸 典型 值 128 x 512。 

位 置 矩 阵 记 为 已 ， 尺寸 为 na x n2, 尺寸 典型 值 128 x 512。 忆 的 每 一 行 对 应 词 碎 序列 中 的 一 
个 位 置 。 称 行 向 量 及 和 天 为 句 标 向 量 ,， 问 量 尺 寸 为 1 x n3， 尺 寸 典 型 值 1 x 512。 岂 对 应 词 碎 
序列 中 的 上 句 ， 产 对 应 词 碎 序列 中 的 下 句 。 记 下 = (1; 天;…; 下 ;天 ;…; 天)， 尺寸 为 n3 Xx Ta， 
尺寸 典型 值 128 x 512。 对 任意 i= 1,2,...,n3， 如 果 信 属于 上 句 ， 那么 了 的 第 i 行 等 于 天 ;如 
果 计 属于 下 句 ， 那 么 下 的 第 i1 行 等 于 天 。 

令 Z29=5+P+， 尺寸 为 ns xmn2， 尺寸 典型 值 128 x 512。2? 是 第 1 个 编码 器 的 输入 拢 
阵 。 自 注意 力 层 的 随 取 概率 记 为 al es [0, 1), 全 连接 层 的 随 取 概率 记 为 aa & [0,1)。 在 训练 阶段 ， 
Qi 和 as2 取 值 非 零 ， 官 方 代码 中 取 值 均 为 0.1; 在 预测 阶段 ，aa 和 as2 均 取 值 为 0. 

接 下 来 的 自 注意 力 子 层 和 全 连接 子 层 均 指 第 1 个 编码 器 ， 不 再 每 次 说 明 。 


5.2” 自 注意 力 于 层 
对 i 二 1,2,...,ns, 第 i 头 的 “ 查 ” 权 重 和 矩阵 记 为 WI 下 ,尺寸 n2xne, 尺寸 典型 值 512 x 64; 
第 i 头 的 “ 查 ” 偏 置 向 量 记 为 B11， 尺寸 1x nme， 尺寸 典 型 值 1 x 64。“ 查 ”和 矩阵 
QL 一 ZW 再 pil 
尺寸 ns x ne， 尺 寸 典 型 值 128 x 64. 
对 ;= 1,2,...,ns, 第 i 涉 的 “ 键 ” 权 重 算 阵 记 为 W 培 , 尺寸 na x ne, 尺寸 典型 值 512 x 64; 
第 ;i 头 的 “ 键 ” 偏 置 向 量 记 为 站 2 ， 尺 寸 1 x ne， 尺 寸 典 型 值 1 x 64。“ 键 ”矩阵 
Ki a ZW 理 bu 
尺寸 ns x ne， 尺 寸 典 型 值 128 x 64. 
对 i 二 1,2,...,ns, 第 ?1 头 的 “ 值 ” 权重 矩阵 记 为 丈 翅 ,尺寸 na xne, 尺寸 典型 值 512 x 64; 
第 ;i 头 的 “ 值 ” 偏 置 向 量 记 为 6 ， 尺 寸 1 x ne6， 尺 寸 典 型 值 1 x 64。“ 值 ”和 矩阵 
Vi = ZW 平 103， 


尺寸 na x ne， 尺 寸 典 型 值 128 x 64. 


记 _ QU (KE)T 
RY = drp (smax (Se) io 


rT Rliv!i 


第 ; 头 的 归 一 化 分 值 为 


尺寸 为 ns x ne， 尺 寸 典 型 值 128 x 64。 将 所 有 头 的 归 一 化 分 值 连接 起 来 ， 就 得 到 第 1 个 编码 器 
自 注意 力 的 分 值 

(0 0 
尺寸 na x na， 尺寸 由 型 值 128 x 512. 

W114 为 权重 矩阵 ， 尺寸 na x n2， 尺寸 典型 值 512 x 512。b14 为 第 1 个 编码 器 偏 置 向 量 ， 尺 

寸 1xn2， 尺 寸 典 型 值 1 x 512。 线 性 变换 后 施加 随 取 操 作 ， 得 

Yll 一 drp(DITV714 平 Dr4 a2). 
做 一 个 层 归 一 化 操作 ， 得 到 自 注 意 力 子 层 的 输出 

YL = Inor(Y! 十 男 

尺寸 ns x n2， 尺 寸 典 型 值 128 x 512. 


5.3 ”全 连接 子 层 


W15 为 全 连接 权重 和 矩阵， 尺寸 wa x n7， 尺 寸 典 型 值 512 x 2048。b15 为 全 连接 偏 置 向 量 ， 
尺寸 1x nz， 尺 寸 典 型 值 1 x 2048。 全 连接 层 的 输出 为 
Y= gelu(Y 2 WwW! + 615), 
尺寸 ns x n7， 典 型 尺寸 128 x 2048. 
W156 为 线性 变换 权重 和 矩阵， 尺寸 nz x na， 尺寸 典型 值 2048 x 512。616 为 线性 变换 偏 置 向 
量 , 尺寸 1xn2， 尺寸 典 型 值 1 x 512。 用 线性 变换 将 尺寸 na x n7 变 回 na x n2， 然 后 作 一 下 随 
取 操 作 ， 即 


y14 二 drp(Y SW16 十 05, oo). 
施加 一 个 层 归 一 化 操作 ， 得 到 第 1 个 编码 器 的 输出 
Zl = lnor(Y™ + YY), 
尺寸 na x n2， 尺 寸 典型 值 128 x 512. 


5.4 编码 堪 堆 登 


第 1 个 编码 器 的 输入 是 矩阵 是 2 ,输出 矩阵 是 2 。 每 个 编码 器 内 部 的 计算 过 程 都 一 样 ,第 
2 个 编码 器 的 输入 矩阵 是 3. ， 输 出 矩阵 是 Z2。 依 次 类 推 , 第 ns 个 编码 器 的 输入 矩阵 是 Zrs ， 
输出 矩阵 是 2"s. 对 了 = 1,2,.….,ns， 和 矩阵 ZI 的 尺寸 是 na x ma， 尺寸 典型 值 是 128 x 512。 


6 训练 任务 
训练 BERT 模型 时 ， 使 用 2 个 任务 : 上 下 名 匹配 、 词 碎 遮 挡 。 


6.1 上 下 名 匹配 任务 


记 9 = 2 ， 即 词 碎 [CLS] 对 应 的 向 量 。9 的 尺寸 为 1 x n2， 尺 寸 典型 值 1 x 512. 令 马 是 
尺寸 为 2 x n2 的 和 矩阵， 尺寸 典型 值 为 2 x 512。 令 7 是 尺寸 为 1 x 2 的 向 量 。 当 输入 序列 寺 的 
上 句 和 下 名 是 真实 的 承接 关系 时 ，& = (0,1)， 否 则 & = (1,0)。 任 务 权重 矩阵 记 为 WW!， 尺 寸 为 
nz x n2， 尺寸 典 型 值 512 x 512。 任务 偏 置 向 量 记 为 部 , 尺寸 为 1 x n2， 尺寸 典型 值 1 x 512。 上 
下 名 匹配 任务 的 目标 函数 为 

11 =—log(smax(tanh (GW! + bl)ET 十 7) 


6.2 词 碎 遮挡 任务 


从 Zes 中 取出 行 号 为 总 ,记名 的 行 向 量 , 按 顺序 排列 起 来 ,组 成 矩阵 22 , 尺寸 为 naxma， 
尺寸 典型 值 20 x 512。 任 务 权 重 和 矩阵 记 为 爷 ?， 尺 寸 为 ma x ma， 尺寸 典型 值 512 x 512; 任务 偏 
置 向 量 记 为 记 ， 尺 寸 为 1 x ma， 尺寸 典型 值 1 x 512. 词典 C 的 偏 置 向 量 记 为 65， 尺寸 为 1 x ni 
尺寸 典型 值 1 x 30522. 令 

H=—log(smax(gelu(22W? + b?)DT + 0b)), 
及 的 尺寸 为 n4 x wa， 尺寸 典型 值 20 x 30522. 
根据 编号 向 量 t = ( 情 , 疡 ，…, 名 0)， 从 瑟 中 取出 元 素 求 平均 值 ， 就 得 本 任务 的 目标 函数 ， 即 


nN4 


12 = D> Wj 


i 二 1 


这 里 的 hi 是 矩阵 万 的 元 素 。 


6.3 ”模型 预 训练 
以 中 十 12 为 目标 函数 ， 以 个 为 样本 进行 训练 ， 即 可 得 到 所 有 的 待定 参数 。 


7 待定 参数 的 数量 


第 4 节 中 , 矩阵 DD 参数 量 为 n1n2。 第 5.1 节 中 , 矩阵 已 ， 参 数量 为 nn2; 句 标 向 量 及 和 户 的 
参数 量 为 2n2。 

第 5.2 节 中 , 矩阵 WW 二 、W! 过 和 WW!3 的 参数 量 均 为 nan6， 向 量 站、b2 和 bl3 的 参数 量 
均 为 ne，W14 的 参数 量 为 吗 ， 向 量 b1 的 参数 量 为 n2; Y2 对 应 的 函数 Inor 中 隐 含 2n2 个 参 
数 。 第 5.3 节 中 ， 和 矩阵 W15 的 参数 量 为 n2n7， 向 量 b15 的 参数 量 为 n7; 矩阵 W16 的 参数 量 为 
nrn2， 向 量 616 的 参数 量 为 wz; 21 对 应 的 函数 Inor 中 隐 含 2n2 个 参数 。 

第 6.1 节 中 ， 和 矩阵 五 的 参数 量 为 2n2， 和 矩阵 做 1 的 参数 量 为 3， 向 量 站 的 参数 量 为 na。 
第 6.2 节 中 ， 和 矩阵 W? 的 参数 量 为 邓 ， 向 量 如 的 参数 量 为 n>， 向量 的 参数 量 为 ni。 


将 这 些 数量 相 加 ， 即 得 BERT 模型 待定 参数 的 数量 


ng(n3 十 3n2n6 十 272727 十 4n2 十 3n6 十 7) 十 nin2 十 2n2 二 non 十 6n2 十 ni. 


当 ni ~ ns 的 取 值 为 第 3 节 中 的 典型 值 时 ， 待 定 参数 的 数量 为 35945786。 
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